Instituto de Estudos Sociais e Pol�ticos (IESP)
Universidade do Estado do Rio de Janeiro (UERJ)

Este arquivo cont�m as etapas para a produ��o das bases e an�lises do artigo "The Gender Division of Labor in Brazilian Political Science Publications".
Autoria do artigo: Marcia Rangel C�ndido, Luiz Augusto Campos, Jo�o Feres J�nior
O artigo ser� publicado na Brazilian Political Science Review
 
ETAPAS GERAIS:

1) Raspagem de dados de Scielo.br --> "base_Scielo_CP_2005-2018.xlsx"
Os dados e abstracts das revistas abaixo foram raspados da plataforma de artigos acad�micos SciELO.br
de acordo com os seguintes crit�rios
- Corpus: Revistas dispon�veis no Scielo e consideradas pela CAPES como majoritariamente de CP
-- Brazilian Political Science Review
-- Contexto Internacional
-- Dados
-- Novos Estudos CEBRAP
-- Opini�o P�blica
-- Revista Brasileira de Ci�ncia Pol�tica
-- Revista Brasileira de Pol�tica Internacional
-- Revista de Sociologia e Pol�tica
- Recorte temporal: 2005-2018
- Exclus�es:
-- Entradas sem abstract em ingl�s (notas editoriais, tradu��es etc.)
-- Resumos diminutos, com no m�nimo 300 caracteres

2) Imputa��o de g�nero � vari�vel "autores_givennames" do arquivo "base_Scielo_CP_2005-2018.xlsx" tomando como base o script do IBGE
Os casos n�o classificados pelo script do IBGE (na maioria, nomes estrangeiros), foram classificados a m�o a partir da lista "sem_genero-edit m.xlsx"

3) Isolamento dos Resumos em um CSV --> "base_Scielo_CP_2005-2018_Resumos.csv"
Para rodar a modelagem de t�picos, isolamos em uma base espec�fica os abstracts

4) Aplica��o do modelo de "script_CamposModelagemTopicos" � "base_Scielo_CP_2005-2018_Resumos.csv".
Orienta��es detalhadas em https://servicodados.ibge.gov.br/api/docs/censos/nomes?versao=2

5) Jun��o dos outputs no arquivo "base_Scielo_CP_2005-2018_Topicos.xlsx"
Tomando como vari�vel de identifica��o a ordem das colunas no Excel, colamos os t�picos imputados e contidos
no arquivo "output_DocsToTopics.csv" na base original "base_Scielo_CP_2005-2018.xlsx", originando o 
arquivo "base_Scielo_CP_2005-2018_Topicos.xlsx" (vari�veis adicionadas: "topico_pred_num" e "topico_pred_prob"


6) Gera��o dos gr�ficos no arquivo "base_Scielo_CP_2005-2018_Topicos.xlsx" no arquivo "base_Scielo_CP_2005-2018_Topicos_Grafico.xlsx".

7) Explica��o de como cada tabela e gr�fico foi gerado no arquivo "base_Scielo_CP_2005-2018_Topicos_Grafico.xlsx" por aba:

- Database: base completa com os dados utilizados na gera��o das tabelas e arquivos.

- Variables: descri��o sucinta de cada uma das vari�veis contidas na planilha "Database".

- Table 1 artcles_year_journal: tabela com a "Distribution of articles in the corpus by year and journal (2005-2018)".
-- Cruzamento das vari�veis "revista" (Coluna M) e "ano" (Coluna N) tomando a vari�vel "pid" (Coluna A) como unidade de an�lise.

- Table 2 term_topics: quadro com "Identified topics, recurring terms, and assigned label". 
-- Essa sa�da foi gerada no arquivo "output_20termsToTopicos.csv" descrito acima.

- Graph 1 journal_topics: gr�fico de barras horizontais com a "Percentage of texts in the corpus according to the assigned predominant topic"
-- Percentual de artigos contados pela vari�vel "pid" (Coluna A) de acordo com o "topico_pred_nome" (Coluna V).

- Graph 2 female_authors: gr�fico de linha com "Percentage distribution of articles with female authors by year of publication"
-- Percentual de artigos por g�nero feminino - categoria "F" da vari�vel "genero" (Coluna L) por "ano" (Coluna N). Unidade "pid" (Coluna A).

- Graph 3 topic_journal: gr�fico de barras verticais com a "Percentage distribution of articles according to the assigned topic and journal"
-- Cruzamento das vari�veis "revista" (Coluna M) e "topico_pred_nome" (Coluna V) tomando a vari�vel "pid" (Coluna A) como unidade de an�lise.

- Graph 4 gender_topic: gr�fico de barras horizontais contendo a "Distribution of women and men as first authors by topic"
-- Cruzamos "g�nero" (Coluna L) e "topico_pred_nome" (Coluna V) tomando a vari�vel "pid" (Coluna A) como unidade de an�lise.

- Graph 5 gender_journal:  gr�fico de barras horizontais contendo a "Distribution of women and men as first authors by journal"
-- Cruzamos "g�nero" (Coluna L) e "revista" (Coluna M) tomando a vari�vel "pid" (Coluna A) como unidade de an�lise.

- Graph 6 female_topics_journal: gr�fico de dispers�o cruzando a "Percentage of articles authored by women by the percentage of published articles on the five subfields with greater female representation in journals"
-- No eixo vertical "% of female authors" encontra-se o dado j� gerado na planilha "Graph 5 gender_journal". 
-- No eixo vertical "% of articles from the subfields with more women", filtrados na vari�vel "topico_pred_nome" (Coluna V) apenas os seguintes t�picos:: law and justice, gender and feminism, collective action and social movements, public policies, and political participation.




DESCRI��O DOS ARQUIVOS:

base_Scielo_CP_2005-2018.xlsx: base de dados original da raspagem do SciELO.br com informa��es sobre os artigos do recorte
base_Scielo_CP_2005-2018_Resumos.csv: resumos da base isolados
base_Scielo_CP_2005-2018_Topicos.xlsx: base de dados da raspagem do SciELO.br com informa��es sobre os artigos do recorte mais os t�picos imputados pela modelagem
base_Scielo_CP_2005-2018_Topicos_Grafico.xlsx base de dados da raspagem do SciELO.br com os t�picos imputados pela modelagem e os gr�ficos utilizados no artigo
sem_genero-edit m.xlsx: lista dos nomes sem imputa��o de g�nero via script do IBGE
script_CamposModelagemTopicos.R: script para a modelagem de t�picos
output_20termsToTopicos.csv: sa�da do script para a modelagem de t�picos com os 20 termos mais recorrentes de cada t�pico
output_DocsToTopics.csv: sa�da do script para a modelagem de t�picos com os t�picos imputados a cada documento
output_TopicProbs.csv: sa�da do script para a modelagem de t�picos com as probabilidades de cada documento ser de cada t�pico
output_RplotKdeTopicos.pdf: gr�fico de sa�da do script para a modelagem de t�picos com a estima��o do n�mero (k) de t�picos mais ajustado ao corpus












